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摘 要 : [目的 /意义 ] 科 技 论文 的 新 颖 性 度量 是 科技 成 果 评 价 的 重要 内 容 , 本 文 旨 在 从 科技 论文 的 核心 要 素 即 问题 和 方法 
出 发 ,提出 一 种 基于 问题 -方法 组 合 的 科技 论文 新 颖 性 度量 与 创新 类 型 识别 方法 。 [ 方法 /过程 ] 基 于 词 频 原 则 分 
别 计算 科技 论文 的 问题 新 颖 度 、 方 法 新 颖 度 、 问 题 -方法 组 合 新 颖 度 , 再 通过 权重 赋值 计算 论文 整体 的 新 颖 度 。 
同时 ,基于 组 合 创 新 理论 ,从 科技 论文 问题 -方法 组 合 的 角度 出 发 提出 4 种 创新 类 型 以 及 根据 文章 新 颖 值 判 断 其 
所 属 创新 类 型 的 方法 。[ 结果 /结论 ] 对 1951 -2018 年 的 20 多 万 篇 ACM 论文 进行 实证 研究 ,证 明 提 出 的 科技 论 
文 新 颖 性 度量 方法 以 及 创新 类 别 识别 方法 是 科学 、 合 理 和 可 操作 的 。 
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“民族 进步 的 灵魂 ”, 习近平 总 书记 这 样 谈 创新 。 
《 国 具 中 央 关于 制定 国民 经 济 和 社会 发 展 第 十 四 个 五 
年 观 划 和 二 O 〇 三 五 年 远景 目标 的 建议 》 吕 将 "坚持 创 
条 人 为 未 来 五 年 十 二 项 重要 领域 工作 的 首位 ,在 科技 
创 器 上 强调 要 强化 国家 战略 科技 力量 ,激发 人 才 创新 
活 瑟 , 完 善 科技 创新 体制 机 制 ,坚决 破除 “ 唯 学 历 , 唯 职 
称 ( 蕉 学 历 , 唯 奖项 " ,科技 成 果 创新 评价 成 为 重要 任 
务 。 科 技 论文 是 科技 成 果 的 主要 载体 ,具备 创新 性 的 
论文 才能 对 科学 发 展 有 所 贡献 ,科技 论文 的 创新 评价 
对 科技 评价 .科研 经 费 调配 等 都 具有 很 高 的 价值 。 
科技 成 果 的 创新 性 在 科技 查 新 中 体现 为 在 查询 委 
托 日 以 前 查 新 项 目的 科学 技术 内 容 部 分 或 者 全 部 没有 
在 国内 外 出 版 物 上 公开 发 表 过 上 ;在 申请 发 明和 实用 
新 型 专利 时 体现 为 申请 专利 的 发 明 或 者 实用 新 型 必须 
不 同 于 现 有 技术 5 ; 在 学 术 论文 上 , 陈 建 青 委 等 将 * 创 
新 "定义 为 在 相关 学 术 领 域内 ,创立 或 发 展 了 有 价值 的 
新 理论 .新 方法 .新 技术 等 ,或 在 前 人 研究 成 果 的 基础 
上 ,加 工整 理 ,发 掘 出 新 意 ,如 提出 新 结论 等 ,可 见 六 


颖 性 是 创新 性 的 关键 特征 ,创新 性 评价 离 不 开 新 颖 性 
评价 。 

创新 成 果 通 常 不 是 凭空 产生 的 ,组 合 是 创新 的 核 
心 之 一 ,有 不 少 学 者 的 研究 论证 了 这 一 点 :I Nonaka'” 
认为 组 合 是 组 织 运用 显 性 知识 进行 知识 创造 的 主要 途 
径 ;L. Fleming “认为 已 有 知识 的 重新 组 合 和 新 知识 的 
组 合 都 有 可 能 带 来 创新 ;B.Uzzi 等 ”提出 不 论 在 哪个 
学 科 领 域 , 现 有 知识 的 非典 型 组 合 可 能 带 来 创新 ;S. 
Mishra 等 "在 探索 MeSH 词 和 论文 新 颖 性 的 关系 时 提 
出 ,在 生物 医学 中 主题 词 的 组 合 能 够 反映 文章 的 新 颖 
性 ,影响 最 大 的 文章 往往 是 在 典型 组 合 的 基础 上 引入 
了 一 些 新 颖 的 组 合 。 可 见 , 组 合 新 颖 性 作为 科技 论文 
新 颖 性 的 计量 方法 已 经 具备 一 定 的 理论 基础 。 问 题 和 
方法 是 科技 成 果 的 两 大 核心 要 素 , 每 篇 科技 论文 都 是 
新 老 问题 和 新 老 方法 的 交叉 组 合 ,问题 和 方法 的 重新 
组 合 和 新 间 题 新 方法 的 组 合 都 有 可 能 带 来 创新 ,因此 
计算 问题 -方法 的 组 合 新 颖 性 能 够 在 一 定 程度 上 衡量 
学 术 论 文 的 新 颖 性 。 

受 限于 学 术 论 文 的 问题 和 方法 难以 提取 ,以 往 研 
究 较 少 有 从 科技 论文 的 问题 方法 出 发 计量 其 新 颖 性 ， 
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而 是 不 区 分 语义 功能 地 计算 关键 词 词 频 或 相似 性 , 结 
果 会 存在 一 定 的 偏差 ,如 某 种 技术 方法 早期 被 作为 研 
究 对 象 加 以 研究 ,成 熟 后 被 应 用 于 其 他 问题 ,其 应 用 的 


题 新 颖 度 要 高 于 普通 期 刊 。 任 海 英 等 ”基于 主题 词 
共 现 网 络 计算 文章 的 新 颖 组 合 率 , 当 新 颖 组 合 率 高 于 
一 定 阔 值 时 ,就 认为 该 文章 具有 创新 性 。 杨 京 等 利 


文章 也 具有 很 高 的 新 颖 性 ,但 如 果 不 加 区 分 地 计算 词 


用 Jaccard 系数 计算 文章 关键 词 的 重 赫 度 ,认为 关键 词 


频 或 者 相似 性 ,其 新 颖 性 会 受 早 期 作为 研究 对 象 时 的 
文章 影响 而 变 得 较 低 。 陆 伟 等 以 从 《计算 机 学 报 》《 情 
报 学 报 》 等 多 本 计算 机 及 图 书 情报 领域 期 刊 获 得 的 
2009 - 2018 年 刊载 的 12 多 万 篇 文献 为 数据 基础 ,构造 
了 一 种 基于 规则 的 数据 标注 方法 对 数据 进行 标注 ,并 
用 BERT 预 训练 模型 对 输入 的 文本 进行 向 量化 表征 ， 
利用 长 短期 记忆 网 络 模型 (Long Short-Term Memory， 
LSTM) 对 关键 词 进行 自动 判别 以 实现 论文 的 问题 . 方 
法 的 识别 ”” 。 基 于 该 研究 成 果 , 本 文 提出 了 一 种 基于 
问题 - 方法 组 合共 现 率 度量 科技 论文 新 颖 性 的 方法 。 
此 名 ,根据 组 合 创新 理论 ,提出 了 基于 科技 论文 问题 - 
着 堵 组 合 的 4 种 创新 类 型 以 及 依据 文章 新 颖 值 识别 其 


所 属 创 新 类 型 的 方法 。 
但 关 研 究 


科技 论文 新 颖 性 度量 
目前 已 有 以 下 几 类 评价 单 篇 科技 论 新 家 性 的 方 


.第 一 种 是 同行 评议 法 ,是 学 术 界 最 为 通用 的 一 种 
主观 定性 评价 方法 ,依靠 领域 评审 专家 个 人 认 知 进行 
请 院 ,操作 简单 易 行 ,但 实践 中 易 产 生 因 个 人 认 知 特性 
造成 的 非 公正 性 ` 非 客观 性 和 非 合理 性 等 问题 "9 。 
三 第 二 种 是 基于 引用 关系 计算 学 术 成 果 的 新 颖 性 ， 
理光 基础 是 学 术 成 果 的 影响 力 体现 在 被 其 他 成 果 引 用 
中 ,有 学 者 探讨 了 文章 被 引 量 和 新 颖 性 之 问 的 关系 , 例 
如 有 沈 律 "认为 科技 成 果 的 创新 性 与 引用 率 成 正比 ， 
即 科技 论文 引用 率 越 高 ,其 创新 度 越 高 。 妈 万 辉 等 
对 国内 图 书 情报 领域 期 刊 论文 的 新 颖 性 和 被 引 量 进行 
统计 分 析 ,发现 学 术 成 果 主 题 新 颖 性 与 学 术 引用 之 间 
存在 显著 的 正 相关 关系 ,主题 新 颖 性 较 高 的 学 术 成 果 
被 引 情况 高 于 新 颖 性 较 低 的 学 术 成 果 。 虽 然 文章 的 被 
引 情况 能 在 一 定 程度 上 反映 论文 的 新 颖 性 特征 ,但 引 
文 分 析 法 的 局 限 在 于 从 科技 成 果 外 在 特征 评价 其 新 颖 
性 ,没有 深入 到 文本 层面 去 度量 内 容 的 新 颖 性 。 

第 三 种 是 从 学 术 论文 本 身 出 发 ,基于 论文 关键 记 
词 频 或 相似 性 来 测度 学 术 文本 主题 新 颖 性 。 杨 建 林 
等 ”吸收 词 频 原则 , 逆 文 档 频率 原则 等 提出 了 带 时 间 
蕉 的 关键 词 对 道 文档 频率 以 量化 文档 主题 的 新 颖 性 ， 
发 现 同一 学 科 领 域 中 重要 核心 期 刊 刊载 论文 的 平均 主 


Sy 


重 琶 度 越 高 ,文章 间 相似 度 越 大 , 则 主题 新 蜂 性 越 低 。 
许 丹 等 ”抽取 文章 中 的 主题 词 ,计算 其 逆 文 档 频 率 从 
而 计算 文章 的 主题 新 颖 性 。 膛 万 辉 等 ”基于 Doc2Vec 
和 隐 马 尔 科 夫 模 型 ( Hidden Markov Model ，HMM ) 算法 
计算 文本 相似 度 , 从 而 计算 学 术 成 果 主 题 新 颖 性 。 钱 
玲 飞 等 ”认为 学 术 论 文 的 学 科 交 又 程度 越 高 ,其 创新 
度 可 能 越 大 ,基于 关键 词 词 频 定义 关键 词 交 义 率 等 指 
标量 化 学 科 的 创新 能 力 ;此 外 ,其 还 定义 了 共 现 关键 词 
的 生命 指数 和 有 效 新 词 出 现 率 ,以 比较 学 科 创 新 力 ,发 
现 有 效 新 词 出 现 率 越 高 则 学 科 创 新 保持 力 越 强 。 
虽然 已 有 的 方法 可 以 在 一 定 程度 上 评价 学 术 论文 
的 新 颖 性 ,但 在 计算 关键 词 词 频 或 者 相似 度 的 时 候 并 
没有 考虑 关键 词 的 语义 功能 信息 ,如 “genetic program- 
ming ”在 “Multi-chromosomal genetic programming 
(2005 ) "一 文中 是 研究 问题 ,而 在 “Genetic programming 
Jor shader simplification(2011)” 一 文中 是 方法 ,不 加 区 
分 地 计算 词 频 或 相似 性 会 将 问题 和 方法 混合 ,导致 后 
一 篇 文章 的 新 颖 值 受 前 者 的 影响 降低 ,但 实际 上 其 作 
为 一 项 新 技术 应 用 到 新 老 问 题 上 应 具有 高 新 颖 性 。 本 
文 基于 深度 学 习 模 型 得 到 科技 论文 的 问题 词 和 方法 
词 ,主要 通过 计算 问题 -方法 组 合 的 共 现 率 ( 即 问题 - 
方法 组 合 出 现 的 频率 ) 衡 量 科技 论文 的 新 颖 度 ,计算 过 
程 严 格 区 分 了 问题 词 和 方法 词 ,避免 了 语义 功能 不 同 
的 词 的 新 颖 值 相互 影响 的 问题 。 此 外 ,与 以 往 研 究 不 
同 的 是 ,本文 在 计算 问题 -方法 词 对 出 现 频率 的 同时 ， 
还 计算 了 单个 问题 方法 出 现 的 频率 。 之 所 以 这 样 计 
算 ,是 因为 新 问题 + 新 方法 、 新 问题 + 老 方法 、 老 问题 
+ 新 方法 作为 组 合 出 现 的 频率 都 是 0, 仅 考虑 组 合 的 
共 现 率 , 其 新 颖 值 都 是 1, 但 通常 认为 新 问题 + 新 方法 
组 合 的 新 颖 性 要 高 于 新 问题 + 老 方法 和 老 问 题 + 老 方 
法 的 组 合 ,并 且 组 合 中 老 问 题 或 者 老 方 法 出 现 的 频率 
越 高 ,其 新 颖 性 越 低 。 

2.2 科技 论文 创新 类 型 识别 

创新 的 概念 最 早 由 经 济 学 家 熊 彼 特 于 1912 年 在 

《经 济 发 展 理论 ) 中 提出 '” ,之 后 得 到 不 断 地 研究 和 深 
化 。 关 于 创新 的 分 类 ,有 学 者 根据 创新 的 大 小 进行 划 
分 ,如 R.， Garcia 等 将 创新 分 为 根本 型 创新 、 适 度 型 创 
新 和 渐进 型 创新 ”; 也 有 学 者 从 知识 管理 的 角度 划分 
创新 类 型 ,如 R. M. Henderson 等 将 创新 分 为 渐进 型 创 
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新 、 构 建 型 创新 、 模 型 型 创新 和 根本 型 创新 ,同时 认为 
创新 活动 所 运用 的 新 知识 可 能 强化 现 有 知识 也 有 可 能 
摧毁 现 有 知识 ;根据 创新 所 依赖 的 价值 网 络 ( 市 场 ) 
的 不 同 ,J.L，Bower 等 将 创新 分 为 延续 型 创新 和 破坏 
型 创新 。 从 创新 内 容 出 发 , 宋 子 良将 创新 分 为 理论 
创新 方法 创新 和 交叉 创新 ” 等 。 除 此 之 外 ,还 有 学 
者 从 学 科 形态 .重要 性 ,用 途 等 角度 划分 创新 类 型 。 
尽管 已 有 的 创新 分 类 方法 不 少 , 但 是 大 多 数 研 究 
停留 在 理论 提出 层面 , 鲜 有 学 者 提出 具体 的 、 可 操作 的 
创新 类 型 识别 方法 。 基 于 此 ,本 文 从 科技 论文 问题 - 方 
法 组 合 的 角度 出 发 提出 4 种 创新 类 型 ,并 提出 一 种 依据 
论文 新 颖 值 计算 结 果 识 别 其 所 属 创 新 类 别 的 方法 。 


3_ 基 于 问题 -方法 组 合 的 科技 论文 新 颖 
性 辣 量 与 创新 类 型 识别 


od 


be 基于 问题 -方法 组 合共 现 率 的 科技 论文 新 颖 性 


〇 单 篇 科技 论文 的 问题 -方法 词 对 是 新 老 问题 和 新 
超 六 法 的 交叉 组 合 ,具体 包括 新 问题 + 新 方法 、 新 问题 
各 方法 . 老 问题 + 新 方法 和 老 问题 + 老 方法 (如 图 1 
有 E) 。 从 问题 方法 出 发 评价 学 术 论文 的 新 颖 性 ,一 般 
让 汉 包 含 新 问题 + 新 方法 的 文章 新 颖 性 最 高 ,其 次 是 包 
含 新 问题 + 老 方法 或 者 老 问题 + 新 方法 的 文章 ,最 低 是 
包含 老 问题 + 老 方法 的 文章 。 老 问题 + 老 方法 的 组 合 
并 人 意味 着 论文 没有 新 颖 性 , 比如 老 问 题 + 老 方法 的 新 
组 经 也 具有 较 高 的 新 颖 性 。 同 时 某 问题 -方法 对 所 在 的 
文章 发 表 得 越 时 ,其 新 颖 性 越 高 。 总 之 ,科技 论文 的 问题 
- 蝴 法 组 合 能 够 在 一 定 程度 上 体现 文章 新 颖 性 的 高 低 。 


老 问 题 新 问题 
低 
外 
老 问题 + 老 方法 新 问题 + 老 方法 
新 
颖 
性 
新 
交 老 问 题 + 新 方法 新 问题 + 新 方法 
低 1 > 高 
新 颖 性 


图 1 学 术 论 文 的 问题 -方法 组 合 及 新 颖 性 高 低 
学 术 论文 中 出 现 频率 较 高 的 问题 方法 词 往往 能 
够 反映 领域 的 研究 热点 ,而 出 现 频率 较 低 的 问题 或 方 
法 则 可 能 反映 了 论文 的 新 颖 之 处 ,比如 新 问题 的 提出 
或 者 新 方法 的 应 用 。 学 术 论 文 的 新 颖 性 会 随 着 其 问 
题 方法 在 该 文献 发 表 前 出 现 频率 的 增加 而 降低 。 基 


于 此 ,本 文 引入 词 频 原 则 度量 学 术 论文 新 颖 值 。 问 题 
-方法 组 合 中 存在 两 种 词 频 , 一 种 是 问题 - 方法 词 作 
为 组 合 出 现 的 频率 , 即 组 合共 现 率 ; 男 一 种 是 问题 词 、 
方法 词 作为 单个 词 出 现 的 频率 。 某 科技 文章 发 表 前 ， 
文章 中 的 问题 - 方法 组 合 在 该 领域 已 发 表 论文 中 出 现 
的 频率 越 高 ,说 明 问题 -方法 组 合 的 新 颖 性 越 低 ,该 科 
技 论文 的 新 颖 性 越 低 ;此 外 ,文章 中 单个 问题 或 方法 在 
该 领域 已 发 表 论文 中 出 现 的 频率 越 高 ,说明 该 问题 或 
方法 自身 的 新 颖 性 越 低 ,包含 该 问题 或 者 方法 的 科技 
论文 的 新 突 性 受 其 影响 也 会 变 低 。 如 果 某 对 问题 - 方 
法 词 在 文章 发 表 以 前 出 现 的 频率 为 0, 那 么 其 是 一 对 
绒 新 的 问题 方法 组 合 。 需 要 强调 的 是 ,本 文 计算 的 科 
技 论文 新 颖 值 均 是 与 文章 发 表 之 前 的 领域 内 文章 对 比 
计算 而 得 的 ,讨论 的 是 文章 发 表 时 的 新 颖 值 ,而 非 其 他 
时 间 点 上 的 文章 新 颖 值 。 

根据 学 术 论 文 问题 -方法 组 合 的 新 颖 性 规律 以 及 
词 频 原则 ,本 文 提出 了 单 篇 科技 论文 的 问题 新 颖 性 、 方 
法 新 家 性 和 问题 - 方法 对 新 颖 值 的 计算 公式 ,如 公式 
(1) (2)(3) 所 示 : 


101 1 


en 
二 iln(n( |, 1 
nov( 0) = ( or + 公式 (1) 
2 ( CM) 1 
iln(n(M,))+ 
nov(M) = Tm 公式 (2) 
! 
Fijiln(n( Q,,M,) ) +1 、 
nov(Q,M) = 10T 1WI 公式 (3) 


其 中 , 0, 必 分 别 是 文档 DD 的 问题 词 集合 与 方法 词 
合 ,nov(Q) 表 示 文 章 问 题 的 新 闫 值 ,nov( 以 ) 表示 文 
章 方 法 的 新 颖 值 ,woz(Q ,以 ) 表 示 文 草 问题 -方法 对 的 
新 颖 值 。101 表 示 集 合 @ 的 元 素 个 数 , 即 文档 D 的 问 
题 数 量 ;1M1 表 示 和 集合 M 的 元 素 个 数 , 即 文档 DD 的 方法 
数量 。0Q,;、M; 分 别 表示 文档 D 中 第 i 个 问题 词 和 第 j 
个 方法 词 ;n( 0;) 表 示 截 至 D 发 表 时 ,问题 0; 在 同 领域 
出 现 的 频数 ;n( MM;) 表示 截至 D 发 表 时 ,方法 MM; 在 同 
领域 出 现 的 频数 ;( 0;,M) 表示 问题 - 方法 对 ,n( 0Q,， 
MM;) 表示 截 至 D 发 表 时 ,问题 -方法 对 (0;,M) 在 同 领 
域 出 现 的 频数 (频数 计算 时 包含 文档 7) 。 取 In 是 为 
了 减缓 新 笑 值 随 频数 的 下 降 速 率 ,避免 新 宁 值 过 低 , 同 
时 又 能 保持 论文 新 颖 值 的 大 小 顺序 。 
随后 ,本 文 取 文章 的 问题 新 实 值 .方法 新 疾 值 问 
题 -方法 组 合 新 颖 值 的 加 权 平 均值 作为 科技 论文 整体 
的 新 疾 性 值 , 记 为 nv(D) ,具体 计算 方法 如 公式 (4) 所 
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hinaxiv 会 作 期 千 
与 创新 类 型 识别 [可 ]. 图 书展 9 i | y 合 指 期 乔 


示 , 其 中 ,hi ,ky, kk +h +hk=1,k,k, ,k=0) 人 分 别 
为 问题 新 颖 性 方法 新 颖 性 和 问题 -方法 对 新 颖 性 的 
权重 ,其 取 值 大 小 能 够 反映 文章 所 属 领域 的 问题 .方法 
和 问题 -方法 组 合 对 文章 新 颖 性 的 决定 程度 ,取决 于 
文章 所 属 领 域 知识 更 新 的 特征 。 计 算 不 同 领域 文章 的 
新 颖 值 时 应 该 分 析 领 域 的 研究 更 新 特征 ,根据 具体 的 
情况 确定 权重 的 大 小 。 
nov(D) =knov(Q) +h,nov(M) + knov( OQ,M) 
公式 (4) 


3.2 ”基于 问题 - 方法 组 合 新 颖 度 的 科技 论文 创新 类 
型 识别 


新 颖 性 是 学 术 论 文 创 新 性 的 本 质 


属性 , 当 文 章 的 
(nov(Q)=7,,nov(M)=7,, 
nov(Q)=7, ,nov(M)<T,, 
nov(Q)<T, ,nov(M)=7T, 
nov(Q)<T, ,nov(M)<T, 


当 nov(D) 宇 7T, 时 ， 


已 其 中 ,7, 是 文章 具备 创新 性 的 阔 值 ,7, 是 问题 创 
新 的 闵 值 ,7, 是 方法 创新 的 阔 值 ,图 2 展示 了 整个 关 
眠 演 得 。 在 文章 整体 新 颖 值 大 于 规定 阔 值 的 情况 下 ， 
着 同 题 和 方法 新 颖 值 均 大 于 对 应 闵 值 , 则 其 为 “新 闻 题 
-方法 "类 组 合 创新 ; 若 问 题 大 于 对 应 阔 值 ,方法 否 ， 
“新 问题 + 老 方法 "类 组 合 创新 ; 若 方法 大 于 对 应 
,问题 否 , 则 属于 “ 老 问题 + 新 方法 "类 组 合 创新 ; 
车 迄 题 和 方法 均 小 于 等 于 对 应 阔 值 , 则 属于 “ 老 问题 + 
老 访 法 "类 组 合 创新 ,该 组 合 中 问题 和 方法 虽 已 单个 出 
现 欢 次 ,但 作为 组 合 是 新 颖 的 。 


© 过、 


新 问题 + 新 方法 
类 组 合 创新 


Ed 
Ed 


老 问题 + 新 方法 
类 组 合 创新 


本 | 
本 | 


图 2 基于 问题 -方法 组 合 的 科技 论文 
创新 类 别 判 断 流程 


“新 问题 + 
新 问题 + 老 方法 "类 组 合 创新 
， 老 问题 + 新 方法 "类 组 合 创新 
， 老 问题 + 老 方法 "类 组 合 创新 


新 颖 值 大 于 一 定 靖 值 时 ,可 以 认为 该 文章 具有 较 高 的 
创新 性 并 根据 其 新 家 值 的 大 小 划分 创新 类 型 。 显 然 ， 
问题 方法 单个 出 现 的 次 数 均 大 于 等 于 问题 -方法 作 
为 组 合 出 现 的 次 数 , 根 据 公式 (1)、(2)、(3) 可 计算 得 
出 单 篇 科技 论文 的 nov( Q,M) 宇 nov(Q) ,nov(0Q,M) > 
nox(M) , nov(D) nov(Q,MM) , 即 当 单 篇 科技 文献 的 
新 活 值 大 于 一 定 贱 值 时 ,其 问题 -方法 对 的 新 家 值 也 
一 定 大 于 该 靖 值 。 若 单 科 科技 论文 中 方法 词 的 新 绪 值 
大 于 一 定 冰 值 时 ,可 以 认为 其 存在 方法 创新 ; 若 问题 词 
的 新 颖 值 大 于 一 定 国 值 , 则 可 以 认为 该 文章 存在 问题 创 


新 。 综 上 ,根据 科技 论文 问题 方法 .问题 - 方法 对 新 预 
值 的 大 小 能 够 划分 其 所 属 创新 类 型 ,具体 判断 如 下 : 


新 方法 ”类 组 合 创新 


4 ”实证 研究 


4.1 数据 集 构建 

本 文 首先 采集 了 ACM ( Association for Computing 
Machinery ,美国 计算 机 协会 ) 从 1951 年 至 2018 年 间 的 
计算 机 领域 论文 ,抽取 文章 的 标题 和 摘要 数据 ,基于 陆 
伟 等 提出 的 问题 方法 抽取 模型 识别 出 论文 的 问题 词 和 
方法 词 。 其 次 将 每 篇 文章 的 DOI 号 .题目 .摘要 问题 
词 方法 词 .发表 时 间 以 及 截至 2018 年 12 月 的 文章 被 
引 量 存 人 MySQL 数据 库 , 数据库 如 图 3 所 示 , 总 计 
204 310 条 有 效 数据 ,文章 数量 按 年 分 布 情况 如 图 4 所 
示 。 最 后 根据 设计 的 公式 编写 程序 代码 计算 每 篇 文章 
的 新 颖 值 并 进行 分 析 。 
4.2 科技 论文 新 颖 值 计 算 

对 数据 集中 所 有 的 文章 进行 新 颖 度 计算 ,每 篇 文 
佛 的 新 疾 值 计算 衡量 的 都 是 其 发 表 时 在 领域 内 的 新 颖 
性 大 小 ,实验 时 只 需 将 文章 的 问题 词 .方法 词 和 问题 - 
方法 对 在 文章 发 表 前 出 现 的 频率 代入 计算 公式 即 可 。 
图 5 展示 了 数据 集中 各 文章 的 问题 方法 .问题 -方法 
对 新 颖 值 的 分 布 情况 ,其 中 x 轴 为 问题 的 新 颖 值 ,y 轴 
为 方法 的 新 颖 值 ,z 轴 为 问题 - 方法 对 的 新 颖 值 。 可 见 
问题 的 新 颖 值 主 要 分 布 在 0.2 -0.6 区 间 以 及 1.0, 方 
法 新 颖 值 呈现 相似 分 布 ,表明 在 实验 数据 集中 问题 和 
方法 的 更 新 速率 相似 。 根 据 问 题 .方法 新 颖 值 的 分 布 
规律 ,实验 将 公式 (4) 中 的 问题 .方法 和 问题 -方法 对 
的 权重 分 别 设 为 0.25 .0.25 和 0.5。 笔 者 取 0.6( 本 文 
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图 3 实验 数据 集 截图 ( 部 分 ) 
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图 4 各 年 份 文章 数量 分 布 


认 老 问题 + 老 方法 的 新 组 合 也 具备 较 高 的 创新 性 ， 
0.6 是 问题 方法 组 合 新 颖 值 为 1 的 文章 的 最 低 新 亲 
值 ) 为 文章 具备 创新 性 的 阐 值 进行 分 析 , 为 更 好 地 观察 
实验 结果 ,实验 将 图 5 中 文章 新 突 值 大 于 等 于 0.6 的 
文章 对 应 的 点 设 为 圆 点 ,其余 点 设 为 三 角形 , 即 圆 点 代 
表 的 是 具有 较 高 创新 性 的 文章 ,三 角形 代表 的 是 低 创 
新 性 的 文章 。 从 图 5 可 以 看 出 , 当 文章 整体 的 新 颖 值 
大 于 等 于 阐 值 时 ,文章 问题 -方法 对 的 新 痢 值 也 大 于 
等 于 该 国 值 ,反之 并 不 一 定 成 立 , 原 因 是 当 文 章 的 问题 
-方法 组 合 的 新 颖 值 比较 高 ,但 是 问题 或 方法 自身 出 
现 很 多 次 时 ,其 文章 整体 的 新 颖 值 会 受 影响 而 变 得 较 
低 。 


当 文 章 的 新 家 值 小 于 阅 值 时 ,笔者 认为 其 是 创新 
性 低 的 文章 。 当 文章 的 新 络 值 大 于 一 定 靖 值 时 ,根据 
文章 的 问题 和 方法 新 突 值 可 以 判断 其 所 属 的 创新 类 
型 。 若 问题 方法 的 创新 闻 值 均 设 为 1.0(1.0 为 问题 、 


nov(Q,M) 


0.6 
oo) 0.8 0.2 


图 5 问题 ,方法 .问题 -方法 对 新 颖 值 的 散 点 分 布 


方法 新 前 值 的 中 位 数 ) , 则 可 将 新 颖 性 较 高 的 文章 划分 
为 新 问题 + 新 方法 、 老 问题 + 新 方法 、 老 问题 + 老 方法 
和 新 问题 + 老 方法 4 类 创新 ,根据 统计 ,其 中 占 比 最 大 
的 是 新 问题 + 新 方法 创新 , 占 比 49.22% ,其 次 是 老 问 
题 + 新 方法 占 比 21. 72% ,新 问题 + 老 方法 占 比 
20.93% , 老 问题 + 老 方法 的 组 合 创 新 最 少 , 占 比 
8.13% ,笔者 认为 产生 上 述 结果 主要 是 因为 实验 选用 
的 ACM 数据 集中 大 多 数 文章 都 处 在 领域 前 沿 , 均 有 问 
题 或 方法 创新 ,文章 的 新 颖 值 普遍 较 高 。 
4.3 实例 分 析 

本 研究 实验 数据 量 共 计 20 多 万 条 ,很 难 通过 对 每 
篇 科技 论文 进行 分 析 验 证 新 颖 值 计算 结 果 的 合理 性 ， 
但 在 科技 论文 新 家 值 计算 后 可 以 将 论文 划分 为 新 笑 值 


is 
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较 高 的 新 问题 + 新 方法 .新 问题 + 老 方法 、 老 问题 + 新 
方法 、 老 问题 + 老 方法 组 合 的 文章 以 及 新 颖 值 低 于 阔 
值 的 低 创 新 性 文章 ,于 是 笔者 从 上 述 5 类 文章 中 分 别 


随机 抽取 了 2 篇 ( 共 10 篇) 进行 实例 分 析 , 以 证 明 本 文 
提出 的 新 颖 度 计算 方法 和 创新 类 别 判定 方法 的 合理 
性 ,抽取 出 的 文章 信息 如 表 1 所 示 : 


表 1 随机 抽取 的 科技 论文 新 颖 值 计 算 及 创新 类 型 判断 结果 
nov nov nov nov 
标题 被 引 量 发 表 日 期 问题 词 方法 词 创新 类 型 
(Q) (M) (Q,M) (D) 

R-trees: a dynamic index struc- 4808 1984 -06 -18 spatial searching R-trees 1.0 上 ,了 1.0 1.0 ”新 问题 + 新 方法 
ture for spatial searching 

XGBoost: A Scalable Tree Boos- 3165 2016 -08 -13 end-to-end tree xgboost 0 让 ,站 1 和 1.0 ”新 问题 + 新 方法 
ting System boost 

Cross-domain sentiment classifica- 97 2010 -04 -26 cross-domain sen- 0.47 1 下 全 0.87 老 问 题 + 新 方法 

; ， spectral feature a- 

tion via spectral feature alignment timent classifica- . 

lignment 
tion 

RAP: an associative processor for 19 1975 -05 -19 data base manage- pointer mecha- 0.38 1.0 1 0.85 老 问 题 + 新 方法 
data base management ment nisms 

Invetter: Locating Insecure Input 0 2018 -10 -15 android input vali- Machine learming 站 和 0. 144 1.0 0.78 新 间 题 + 老 方法 
alidations in Android Services dation 

FBenetic Algorithm-Based Solver 2 2014 -07 -12 jigsaw puzzle sol- genetic algorithm 1.0 0.16 1.0 0.79 新 间 题 + 老 方法 
(yer Large Jigsaw Puzzles ver 
[es 
Experiments with Convolutional 4 2017 -08 -07 question answer Convolutional neu- 0.19 0.20 i 0.60” 老 问题 + 老 方法 
xe al Network Models for An- ral network 
(uo Selection 
【em i 
“What do concurrency developers 12 2018 -10 -11 concurrency topic modeling 0. 19 0.20 和 0.60” 老 问题 + 老 方法 
bo : a large-scale study u- gram 
《加 stack overflow 
Gi and Tensor Decomposition 0 2016 -09 -15 recommendation matrix and tensor 0. 16 | 0.47 0.33 低 创新 
Necommender Systems system decomposition 
Cuidmatically evolving difficult 0 2018 -07 -15 feature select genetic program- 0.20 0.15 0.47 0.32 低 创新 
A , ， 
Wpehchmark feature selection data- ming 


本 国 . 
sets with genetic programming 


PP 


随机 抽取 出 的 文章 中 ,属于 “新 间 题 + 新 方法 "类 
组 竣 创 新 的 是 R-trees: a dynamic index structure for spa- 
tialSsearching 和 XCBoost: A Scalable Tree Boosting Sys- 
0 前 者 首次 提出 了 一 种 处 理 高 维 空间 存储 问题 的 数 
据 结构 ;后 者 首次 提出 了 一 种 可 扩展 的 端 到 端 基于 树 
的 boosting 系统 ,这 两 篇 文章 的 研究 问题 和 方法 在 发 
表 时 都 非常 新 颖 ,发 表 后 都 得 到 了 大 量 的 引用 和 应 用 。 


Cross-domain sentiment classification via spectral feature a- 


lignment 和 RAP: am associative processor for data base 
management 是 属于 “ 老 问 题 + 新 方法 "类 组 合 创新 ,前 
者 提出 了 一 种 频谱 特征 对 齐 算法 进行 跨 领域 情感 分 
类 ;后 者 提出 了 数据 库 中 的 RAP 一 一 联动 处 理 器 ,这 两 
篇 科技 论文 的 研究 问题 分 别 是 跨 领域 情感 分 类 和 数据 
库 设计 ,在 文章 发 表 时 都 已 经 有 一 定 的 文献 积累 ,但 方 
法 新 颖 ,文章 整体 的 新 颖 值 较 高 。Invetter: Locating In- 
secure Input Validations in Android Services 和 4 Genetic 


Algorithm-Based Solver for Very Large Jigsaw Puzzles 则 是 
“新 问题 + 老 方法 "类 组 合 创新 ,前 一 篇 提出 了 一 个 趾 
做 Invetter 的 工具 ,其 利用 机 器 学 习 的 方法 实现 了 在 


Android 服务 中 查找 不 安全 的 输入 验证 ;后 一 篇 提出 了 
一 个 基于 遗传 算法 的 有 效 自 动 化 拼图 难题 求解 右 , 两 
篇 文章 使 用 的 方法 都 不 是 非常 新 前 ,但 是 都 解决 了 一 
个 新 的 有 意思 的 问题 ,所 以 具有 较 高 的 新 实 性 。Ex- 


periments with Convolutional Neural Network Models for 


Answer Selection 和 What do concurrency developers ask a- 


bout?; a large-scale study using stack overflow 都 属于 “ 老 
问题 + 老 方 法 ”新 组 合 的 创新 ,前 者 是 关于 卷 积 神经 网 
络 在 自动 问答 中 的 应 用 ;后 者 研究 的 是 开发 者 在 并 发 
编程 中 的 问题 ,方法 使 用 的 是 LDA 主题 模型 ,两 篇 文 
章 发 表 时 研究 同样 问题 或 方法 的 文章 都 有 一 定 的 积 
累 , 但 是 问题 和 方法 的 组 合 是 新 颖 的 。Matrix and Ten- 


sor Decomposition in Recommender Systems 和 Automatical- 


ly evolving difficult benchmark feature selection datasets 
with genetic programming 是 新 颖 值 相对 较 低 的 文章 ,前 
者 关于 推荐 系统 中 的 矩阵 与 张 量 分 解 问题 ,后 者 是 关 
于 使 用 遗传 编程 自动 扩充 现 有 数据 集 以 便 更 科学 地 测 
试 特征 选择 性 能 的 文章 ,问题 和 方法 、 以 及 问题 -方法 
的 组 合 都 已 出 现 过 多 次 , 故 新 颖 性 最 低 。 综 上 ,本 文 从 
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案例 分 析 的 角度 证 明了 所 提 科 技 论 文 新 家 性 度量 方法 
和 创新 类 型 识别 方法 的 合理 性 和 可 解释 性 。 
4.4 科技 论文 新 颖 值 与 被 引 量 分 析 

学 术 论 文 的 新 颖 性 与 被 引 情况 作为 学 术 评价 的 两 
个 重要 维度 ,其 之 间 的 关系 也 受到 一 些 学 者 的 关注 ,如 
未 万 辉 等 ”研究 发 现 主题 新 颖 性 较 高 的 学 术 论 文 被 
引 量 通常 要 高 于 新 颖 性 较 低 的 文章 。 笔 者 也 对 文章 的 
新 疾 值 和 被 引 量 之 间 的 关系 进行 了 分 析 , 结 果 如 图 6 
所 示 ( 方 框 内 为 被 引 量 小 于 1 500 的 文章 )。 从 图 6 可 


以 看 出 ,一 方面 高 被 引 的 文章 具有 高 新 笑 值 ,如 被 引 量 
大 于 500 的 文章 新 颖 值 均 大 于 0.6; 男 一 方面 新 颖 值 较 
高 的 文章 更 容易 产生 高 被 引 量 ,与 未 老师 等 的 实验 结 
果 相 一 致 。 关 于 科技 论文 的 新 颖 值 与 被 引 量 在 本 实验 
中 没有 呈现 绝对 的 正 相 关 关 系 的 问题 ,笔者 分 析 主 要 
有 两 个 原因 :由 文章 的 被 引 量 随时 间 而 增加 ,对 于 近 两 
三 年 的 文章 而 言 ,其 真正 被 引 量 还 没有 体现 出 来 ;@) 科 
技 论文 的 影响 力 不 单 单 取决 于 文章 新 颖 性 大 小 ,还 会 
受到 研究 领域 热度 等 因素 的 影响 。 
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6 科技 论文 新 颖 值 与 被 引 量 分 布 示意 


Se 总 结 与 讨论 

,三 作为 科技 论文 的 核心 要 素 ,问题 和 方法 的 组 合 能 
够 在 一 定 程度 上 体现 科技 论文 的 新 颖 性 。 科 技 论文 中 
的 问题 方法 组 合 具体 来 说 包括 :新 问题 + 新 方法 .新 问 
题 + 老 方法 、 老 问题 + 新 方法 、 老 问题 + 老 方法 ,而 老 
问题 + 老 方法 又 包含 了 老 问题 + 老 方法 的 老 组 合 和 老 
问题 + 老 方法 的 新 组 合 。 受 限于 问题 ,方法 词 抽取 困 
难 ,以 往 研 究 在 计算 学 术 论文 新 颖 值 时 往往 不 对 关键 
词 的 词汇 功能 加 以 区 分 ,所 以 会 掩盖 老 方法 用 于 新 间 
题 ,新 方法 用 于 老 问题 以 及 老 问题 + 老 方法 新 组 合 的 
新 颖 度 。 本 文 基于 已 有 的 科技 论文 问题 方法 抽取 模型 
提出 了 一 种 基于 问题 -方法 组 合共 现 率 计算 科技 论文 
新 颖 度 的 方法 ,分别 计 算 科 技 论文 的 问题 新 颖 度 .方法 
新 颖 度 .问题 -方法 组 合 新 颖 度 以 及 论文 整体 新 颖 度 。 
基于 组 合 创新 的 思想 ,提出 了 4 种 创新 类 型 以 及 根据 
新 颖 值 识别 文章 所 属 创新 类 型 的 方法 。 最 后 ,本 文 计 
算 了 20 多 万 篇 ACM 论文 的 新 颖 值 ,并 通过 随机 抽取 
的 10 篇 科技 论文 计算 结果 分 析 证 明了 所 提 公 式 的 合 


理性 .可 操作 性 以 及 计算 结果 的 可 解释 性 。 

本 研究 还 存在 一 定 的 局 限 性 ,提出 的 计算 方法 只 
考虑 了 科技 论文 的 问题 和 方法 而 忽略 了 其 他 维度 的 新 
颖 性 ,如 新 观点 .新 结论 等 ,未 来 可 以 进一步 扩展 ,例如 
文章 的 观点 和 结论 更 多 地 是 以 句子 的 形式 出 现在 文章 
的 摘要 和 首尾 部 分 ,因此 需要 先 研究 文章 观点 ,结论 句 
的 识别 ,再 进一步 地 将 文章 的 观点 、 结 论 纳入 计算 公 
式 , 从 更 细 粒 度 的 层面 更 综合 地 度量 论文 的 新 颖 性 。 
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Novelty Measurement and Innovation Type Identification of Scientific Literature Based 


on Question-Method Combination 
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Absiract: | Purpose/significance | Novelty measurement is an important part of scientific achievement evalua- 


tion. This paper aims to propose a method of novelty measurement and innovation type identification of scientific pa- 


pers based on the combination of question and method. | Method/ process| Based on the word frequency principle, 


this paper calculated the question novelty, method novelty and question-method combination novelty respectively, and 


then calculated the overall novelty of the paper by weight assignment. In addition, based on the theory of combination 


innovation, this study proposed four types of innovation from the perspective of scientific paper question-method com- 


bination and a method to identify the type of innovation according to the novelty value. | Result/conclusion | Final- 


ly, this paper conducts an empirical study based on more than 200 ,000 ACM papers from 1951 to 2018, and proves 


that the novelty measurement method and innovation category identification method proposed in this paper are scientif- 


ic, reasonable and feasible. 
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